阿尔伯塔计划研究愿景的第二个显著特征可以概括为“时间一致性”。时间一致性意味着对于代理上运行的算法而言,所有时间都是相同的。在训练信息可用或奖励计数多于或少于其他奖励时,不存在特殊的训练期。如果提供训练信息(如通过奖励信号提供),则在每个时间步骤上都会提供。如果代理进行学习或计划,则它会在每个时间步骤上进行学习或计划。如果代理构建自己的表示或子任务,则构建它们的元算法会在每个时间步骤上运行。如果代理可以在环境部分看起来稳定时降低其学习速度,那么当它们开始发生变化时,它也可以在环境部分开始变化时提高其学习速度。我们专注于时间上统一的问题和算法,这使我们对非平稳、持续的环境以及持续学习和元学习的算法产生了兴趣。4